Paul SPIELMANN Hani HOUMIMID

Analyse de données

Rapport des données du BUT RT de ParcoursSup :

L'objectif principal de cette analyse est de générer un classement des candidats en vue de l'admission dans la formation RT. Ce classement est basé sur divers critères, qui seront détaillés ultérieurement. Il servira à sélectionner les candidats qui rejoindront la formation RT en cas où ils ne choisissent pas une autre formation.

Pour mener cette étude, nous avons utilisé les données du BUT RT de l'année académique 2021/2022. Le fichier Excel contient une gamme d'informations sur les candidats, comprenant leur parcours scolaire (français/étranger), la présence éventuelle de dispositifs d'aménagement, l'établissement d'origine des candidats, leur filière, leurs bulletins scolaires avec les notes associées, leurs spécialités ainsi que les langues vivantes choisies par les étudiants.

Pour commencer !

Ce bout de code nous permet de charger les bibliothèques python qui vont nous servir pour notre analyse de données et notre classement.

Sommaire

Visualisation des données avec différents graphes

Pour avoir une visualisation un peu plus précise des langues vivantes :

Visualisation des données pour chaque académie

Notre fichier ne contenait pas les académies d'origine de nos étudiants, nous avons créer un graphe circulaire afin d'observer la répartition.

Notons que nous avons cité seulement les académoies d'Ile-De-France car notre graphe allait être illisible si nous avions affiché les autres académies.

Les autres académies sont représenté sous le libellé "Autre".

Le premier graphe circulaire montre la répartition des académies d'origine sans aucun filtre

Le deuxième graphe circulaire montre la répartition des académies d'origine seulement pour les étudiants ayant validés leur voeux

Nous allons maintenant visualiser les données pour chaque académie :

Cette fonction va nous permettre d'afficher des historigrammes plus rapidement et plus simplement

Exemple d'utilisation :

Corrélations

Traitons maintenant les corrélations.

La première corrélation

Nous pensons qu'il y a une corrélation entre l'académie de provenance et le statut de boursier.

Nous souhaitons donc savoir si il y a plus de boursier en provenance de l'académie de Créteil ou non, car l'académie de Créteil regroupe trois départements : Seine-et-Marne (77), Seine-Saint-Denis (93) et Val-de-Marne (94). La Seine-Saint-Denis étant le département le plus pauvre de France, devrait logiquement accorder des bourses aux étudiants.

Il y a donc bel et bien une corrélation entre l'académie de provenance et le statut de boursier. Notons par ailleurs que si l'on additionne les boursiers des autres académies, l'on tombe à 503, qui est à peine plus grand que l'académie de Créteil qui est à 486.

Et voici la démonstration mathématiques !

La deuxième corrélation

Nous pensons que la moyenne d'enseignement scienfique influe sur les mathématiques. L'académie avec les meilleurs résultats en Enseignement scientifique sera la meilleure dans les matières mathématiques.

Corrélations entre Enseignement Scientifique et autres matières

Enseignement Scientifique vs Mathématiques :

Il y a une corrélation modérée positive (0.67) entre la moyenne en Enseignement Scientifique et la moyenne en Mathématiques. Cela suggère que les étudiants qui réussissent bien en Enseignement Scientifique ont tendance à bien réussir aussi en Mathématiques.

Enseignement Scientifique vs Mathématiques Experts :

Il y a une corrélation très forte positive (0.97) entre la moyenne en Enseignement Scientifique et la moyenne en Mathématiques Experts. Cela indique une forte association entre les performances dans ces deux matières.

Enseignement Scientifique vs Mathématiques Complémentaires :

Il y a une corrélation forte positive (0.91) entre la moyenne en Enseignement Scientifique et la moyenne en Mathématiques Complémentaires. Encore une fois, cela montre une association significative entre les performances dans ces deux matières.

Enseignement Scientifique vs Mathématiques Spécialités :

Il y a une corrélation extrêmement forte positive (0.99) entre la moyenne en Enseignement Scientifique et la moyenne en Mathématiques Spécialités. Cela suggère une association pratiquement parfaite entre les performances dans ces deux matières.

Ces résultats indiquent que la performance en Enseignement Scientifique est fortement liée aux performances dans les autres matières, avec des degrés de corrélation variables mais généralement positifs.

La troisième corrélation

Nous pensons que les gens avec un bon niveau en mathématiques ont plus tendance à valider leurs voeux que les autres.

Nous obtenons un coefficent de corrélation de 0.03132434229906544 ce qui indique une faible corrélation positive. Il y a une légère tendance à ce que les candidats ayant de meilleures notes en mathématiques aient une probabilité légèrement plus élevée de valider leurs vœux par rapport à ceux ayant des notes moins élevées.

Modèles statistiques déployés

Normalisation des notes :

La fonction normalize semble implémenter une méthode de normalisation des notes d'étudiants. Cette méthode prend en compte la moyenne de la classe (m), la moyenne de l'étudiant (e), ainsi que les notes minimales (mi) et maximales (ma) de la classe pour une matière donnée. La normalisation est effectuée en ajustant les notes de manière à ce qu'elles se situent dans une plage de valeurs prédéterminée. Cela peut être utile pour comparer les performances des étudiants sur différentes matières, en prenant en compte les variations de difficulté entre les matières et entre les classes.

Calcul de la note de l'étudiant pour une matière et un trimestre donnés :

La fonction calculNote prend en compte les moyennes de l'étudiant, de la classe, ainsi que les notes minimales et maximales de la classe pour calculer la note de l'étudiant dans une matière donnée et pour un trimestre donné. Cette note est calculée en fonction des performances de l'étudiant par rapport à la moyenne de la classe, avec une éventuelle normalisation. Cette approche permet d'évaluer les performances individuelles des étudiants de manière relative par rapport à leur classe.

Calcul du score de l'étudiant :

La fonction calculScore calcule un score global pour chaque étudiant, en prenant en compte les performances dans plusieurs matières et pour plusieurs trimestres. Ce score est calculé en agrégeant les notes calculées pour chaque matière, en fonction des coefficients attribués à chaque matière. Les matières peuvent avoir des coefficients différents selon leur importance relative dans le calcul du score global. Ce score peut être utilisé pour classer les étudiants en fonction de leurs performances globales.

Matrices de coefficients et de plages de notes :

Les matrices matrice_general et matrice_sti2d définissent les coefficients et les plages de notes associées à chaque matière. Ces informations sont utilisées dans le calcul des scores des étudiants pour pondérer les performances dans différentes matières et pour déterminer si les notes sont supérieures à des seuils prédéfinis.

Classement

Passons maintenant au classement

Nos critères pour le classement sont tout simplement les notes. Nous prenons les notes des matières scientifiques ainsi que le Français et l'Anglais